Pearson vs Spearman 相关
核心区别
| 特性 | Pearson 相关 | Spearman 相关 |
|---|---|---|
| 衡量关系 | 线性关系强度 | 单调关系强度 |
| 计算基础 | 原始数值的协方差 | 秩次(排名)的相关性 |
| 分布要求 | 需要正态分布 | 无分布要求 |
| 异常值敏感性 | 高度敏感 | 不敏感(稳健) |
| 统计效力 | 条件满足时更强 | 稳健性更好 |
| 适用范围 | 连续变量,线性关系 | 有序变量,单调关系 |
实际例子
假设数据:
- X = [1, 2, 3, 4, 100]
- Y = [2, 4, 6, 8, 10]
Pearson: 会被 100 这个异常值严重影响,相关系数会偏低
Spearman: 只看排名(1, 2, 3, 4, 5),不受具体数值影响,能正确识别单调递增关系
选择原则
使用 Pearson 的情况:
- 数据接近正态分布
- 关系明显是线性的
- 无明显异常值
- 需要更高的统计效力
使用 Spearman 的情况:
- 数据有偏态分布
- 存在异常值
- 只关心单调性(不一定线性)
- 数据是有序分类变量
生物信息学应用
基因表达相关性分析通常优先选择 Spearman,原因:
- 表达量数据往往不是正态分布(右偏)
- 经常存在极端表达值
- 更关心表达趋势(共表达)而非精确线性关系
- RNA-seq 数据经过 log 转换后也可能有异常值
例外情况:如果数据已经过良好的标准化且确认接近正态分布,可以用 Pearson 获得更高的检测效力。